6月26日,由克林顿总统主持仪式,人类基因组计划国际组织与美国塞里拉(Celera)公司联合宣布完成了第一张人类基因组“工作草图”。这不过意味着人类基因组计划完成了第一阶段的工作,而进入了第二阶段,并不是说这项工程已经完工。事实上,这张草图存在着空白和错误,只包括了大约85%的基因组序列,而且只有24%的序列是精确的。预计要到2003年才能得到既完整又精确的基因组序列,到那时候,对人类基因组的测序工作才算大功告成。现在该发布会迫不及待地将这个“草图”的诞生称之为里程碑式的事件,是可以理解的:对克林顿总统来说,他马上就要离职,等不及再过两、三年再来创历史功绩了;对主持人类基因组计划的美国国家卫生院来说,花了3亿美元(其中一半资金由国家卫生院提供)得到这份草图,也该对纳税人有所交代;而对私营基因公司来说,则可乘机造势为将来的商业赢利做准备。但中国的媒体也纷纷跟着炒作,甚至越传越离谱,就有点奇怪了。比如《中国青年报》在第二天的报道以“人类基因密码奥秘破译”为题,将人类基因组草图的公布称之为破译了人类基因密码奥秘,那是把报道提前了至少几十年。
1990年首先在美国启动的“人类基因组计划”是为了测定组成人类基因组的核苷酸序列。人类基因组大约由30亿个碱基对组成,打个比方,就像是一部由30亿个由A,T,G,C四种字母交替组成的大书。这个计划的目的,就是要知道这四种字母的排列顺序。但是由于技术的原因,在测序之前,需要先把这本书撕成许多个小片断分别阅读,然后再把这些片断拼接起来恢复成一本完整的书。所谓完成了“工作草图”,仅仅指的是初步把这些小片断拼凑了起来,里面有空白和错误,还不是一本完整准确的书。
即使在两、三年后得到了完整的书,也绝不意味着就读懂了这本书。知道了基因组序列并不就是破译了人类基因的奥秘。人类基因组绝大部分都是没有功能意义的DNA序列,只有少部分是有意义的,包括了大约10万个基因。在获得基因组完整序列之后,下一步的工作,是把其中的全部基因找出来。只有找到了这10万个基因,了解了其编码的蛋白质的结构和基本功能,以及基因调控的机制,才可以说初步破译了人类基因的奥秘。这是极其艰巨的工作。目前已从基因组序列找出来的人类基因已有三万多个,但是能跟被编码的蛋白质对上号的,也不过数千个。最乐观的估计,没有几十年的时间,不可能初步完成这项破译。而如果要把所有蛋白质的相互关系研究透彻,那要花上更长久的时间。
即使到了这个遥遥无期的时刻,也绝不意味着我们完全掌握了人类遗传的奥秘。人类基因组计划是源于一个并不恰当的观念,以为存在着一种典型的纯粹的人,可以用少数几个人(赛里拉公司用的是五个不同种族的人)的基因组来代表人类基因组。但是人类的遗传有着无限的多样性。除了同卵孪生子,没有两个人的基因组是相同的。大约30%的人体蛋白质是多态的,也就是有着各色各样的变异,而功能又属正常。基因的变异远多于蛋白质的变异,并不存在一本单一的基因标准“密码本”。如果将某些个特定个体的遗传当成了人类遗传的标准而忽视了人类遗传的多样性,是极其危险的。
人类基因组的完整序列,无疑能成为遗传学研究的重要工具,至少,它有助于我们更快速地鉴定、克隆人类基因,特别是那些已先在别的生物中发现的基因。但是,人类基因组序列所起的作用是相当有限的。就像一张地图,它能给旅行带来很大的便利,却不能保证就能达到目的地,更不等于拥有一张地图就算是已到达了目的地。何况还存在着无数不尽相同的地图。人类基因组序列的获得,只是全面破译人类遗传奥秘的起点,而不是结束。